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С помощью математического аппарата классической теории тестов проведен анализ результатов экзаменов по химии. Вычисле- 
ны статистические показатели первого и двух последних экзаменов. Показано приближение частотного распределения тестовых 
баллов к нормальному распределению статистических данных. Показано, что надёжность тестов находится в допустимом интер- 
вале значений, но необходимо увеличение их содержательной валидности. 


Тестовые технологии контроля знаний и уме- 
ний студентов широко применяются в вузах Рос- 
сии на промежуточных этапах учебного процесса, 
но на итоговом контроле тестирование применяет- 
ся редко. Применение тестирования на экзаменах 
сдерживается отсутствием данных о качестве при- 
меняемых тестов и надёжности получаемых резуль- 
татов контроля. 

В Томском политехническом университете раз- 
работана и используется тестовая технология кон- 
троля знаний студентов по химии, как на рубеж- 
ном, так и на итоговом контроле студентов [1-3]. 
Создание научно-обоснованного теста состоит из 
четырёх этапов [4]: 1) планирование, 2) составле- 
ние предтестовых заданий, 3) проведение апроба- 
ционного тестирования, 4) коррекция заданий. 
Первые три этапа нами пройдены. Задача этой ра- 
боты - исследование экспериментальных резуль- 
татов тестирования для проведения работ по кор- 
рекции заданий теста. Актуальность работы объяс- 
няется необходимостью использования в высшем 
профессиональном образовании взаимопризнавае- 
мых методов контроля обученности студентов, как 
это предусмотрено Болонской декларацией, к ко- 
торой в 2003 г. присоединилась Россия. 

Экзамен по тестовой технологии сдают студенты 
общетехнических направлений и специальностей, 
общее число проэкзаменованных составляет 2219 
чел. Результаты экзамена, которые обрабатываются 
с помощью компьютера, являются исходным экспе- 
риментальным материалом. Он представлен в виде 
матрицы, число строк в которой соответствует числу 
испытуемых, а число столбцов - числу заданий в те- 
сте. Фрагмент матрицы результатов последнего эк- 
замена представлен в табл. 1. Каждое из 12 заданий 
теста в матрице пронумеровано дважды. Это связано 
с тем, что в наших тестах используются двухуровне- 
вые задания, которые позволяют контролировать не 
только конечные результаты, но и промежуточные 
этапы умственных действий студентов. Результаты 
выполнения оцениваются дихотомически: за пра- 
вильный ответ студент получает 1 балл, а за непра- 
вильный или пропуск подзадания - 0. 

В матрице отсутствуют строки и столбцы, со- 
стоящие только из нулей или только из единиц. 
Это означает, что среди студентов нет ни одного, 


который не выполнил все без исключения задания 
теста, и также нет ни одного, который выполнил 
правильно все задания. Соответственно нет ни од- 
ного задания, которое не выполнили или выполни- 
ли все студенты. По этим данным можно сделать 
предварительный вывод о том, что тесты более или 
менее сбалансированы по трудности заданий, а вы- 
борка испытуемых - репрезентативная. 


Таблица 1. Фрагмент матрицы результатов экзамена по химии 
в зимней экзаменационной сессии 2005/06 уч. г. 
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По результатам экзамена подсчитаны индиви- 
дуальные баллы каждого студента, число правиль- 
ных ответов всех студентов на каждое задание и 
проведена графическая интерпретация получен- 
ных данных наиболее наглядным способом: в виде 
столбиковых гистограмм несгруппированных бал- 
лов. Гистограмма представляет собой последова- 
тельность столбиков, каждый из которых соответ- 
ствует определенному результату экзамена (экзаме- 
национному баллу), а высота столбца пропорцио- 
нальна частоте «присутствия» этого балла в резуль- 
татах экзамена. Иначе говоря, гистограмма пред- 
ставляет частотное распределение статистических 
результатов тестирования. 

На рисунке приведены гистограммы результатов 
трёх экзаменов, проведенных по данной техноло- 
гии - первого и двух последних. Из их сравнения 
видно постепенное улучшение результатов тестиро- 
вания: число более высоких баллов увеличивается. 
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Следует обратить внимание на то, что частотное ра- 
спределение соответствует обычному распределению 
статистических данных, но отличается от теоретиче- 
ского (нормального) распределения смещением ре- 
зультатов в сторону меньших баллов. Особенно замет- 
но такое смещение на гистограмме первого экзамена. 
Такая ситуация в общем случае интерпретируется как 
несоответствие тестов уровню знаний испытуемых: те- 
сты для данной выборки студентов обладают повы- 
шенной трудностью. Но преподаватели химии, кото- 
рые разрабатывают задания, не намерены их упрощать, 
т. к. считают, что обучать и контролировать студентов 
необходимо на высоком уровне интеллектуальной 
трудности, что является основным принципом разви- 
вающего обучения. Между сессиями проводилась кор- 
ректировка заданий: устранялись неопределённость и 
неоднозначность формулировок, приводилась к еди- 
нообразию терминология и символика, устранялись 
стилистические погрешности. Но никаких замен труд- 
ных заданий на лёгкие при этом не допускалось. 

По результатам реального распределения частот 
методами математической статистики [4, 5] вычи- 
слены характеристики тестов, которые позволяют 
оценивать их в качестве инструмента измерения 
знаний: мода, медиана, среднее арифметическое, 
дисперсия, стандартное отклонение, асимметрия, 
эксцесс и самый важный показатель - надежность. 
Результаты вычислений приведены в табл. 2. 
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Рисунок. Гистограммы результатов трёх экзаменов: зимнего 
2003/04 (а), весеннего 2004/05 (б) и зимнего 
2005/06 (в) учебного года 


Таблица 2. Статистические характеристики тестов, применяе- 
мых для контроля знаний и умений студентов по 
химии 


Показатели 

Зимняя сес- 
сия 2003/04 
уч. г. 

Весенняя сес- 
сия 2004/05 
уч. г. 

Зимняя сес- 
сия 2005/06 
уч. г. 

Число испытуемых 

366 

541 

454 

Мода 

9 

9 

11, 15 

Медиана 

9 

11 

12 

Среднее арифме- 
тическое 

9,7 

11,3 

12,3 

Дисперсия 

17,6 

23,4 

22,6 

Стандартное от- 
клонение 

4,2 

4,8 

4,8 

Асимметрия 

-0,23 

-0,16 

-0,09 

Эксцесс 

-0,40 

-0,58 

-0,52 

Надёжность 

0,71 

0,75 

0,76 


Мода - это такое значение тестового балла, ко- 
торое встречается наиболее часто среди результатов 
экзамена; в нашем случае оно равно 9 на экзаменах 
зимой 2004 и весной 2005 г. (унимодальное распре- 
деление). На последнем экзамене значений моды 
два: 11 и 15 (бимодальное распределение результа- 
тов); при этом второе значение моды заметно выше 
того, которым характеризуются результаты двух 
предыдущих экзаменов. 

Медиана - это такое значение тестового балла, 
которое делит всех студентов на две равные части: с 
меньшим и большим значением результата экзаме- 
на; из табл. 2 видно, что этот показатель от сессии 
к сессии постепенно увеличивается. 

Среднее арифметическое индивидуальных оце- 
нок экзамена, вычисленное обычным путем (все 
оценки суммируются с последующим делением на 
их число), равно 9,7; 11,3 и 12,3 балла. Отличие 
значения среднего арифметического от значения 
моды объясняется тем, что на величину первого 
влияют значения всех результатов, тогда как значе- 
ние моды от других результатов не зависит. Увели- 
чение значения среднего арифметического поло- 
жительно характеризует процесс совершенствова- 
ния методики преподавания дисциплины. 

На практике значения моды, медианы и средне- 
го арифметического следует иметь в виду при пере- 
воде тестовых баллов в традиционную оценку в том 
случае, когда результат экзамена (зачета) рассма- 
тривается как окончательный независимо от рей- 
тинга студента в семестре. Такой подход применя- 
ется в кредитно-модульной системе, по которой 
обучаются студенты электротехнического институ- 
та и факультета автоматики и вычислительной тех- 
ники, и на которую в дальнейшем будут переходить 
другие подразделения Томского политехнического 
университета и других вузов. 

Дисперсия и стандартное отклонение - показате- 
ли изменчивости (разброса) результатов тестирова- 
ния. Дисперсия играет важную роль при разработ- 
ке нормативно-ориентированных тестов: низкая 
дисперсия свидетельствует о слабой дифференци- 
ации тестируемых по уровню их подготовки, а вы- 
сокая дисперсия приводит к большому отличию 
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получаемого распределения от теоретической нор- 
мальной кривой. Оптимальной считается такая 
дисперсия, при которой значение среднего ариф- 
метического равно утроенному значению стан- 
дартного отклонения. В наших тестах оптимально- 
го значения дисперсии пока не достигнуто, но тен- 
денция положительна: если в первой сессии отно- 
шение среднего арифметического к стандартному 
отклонению составляет 2,3, то в последней - 2,6. 

Асимметрия - показатель отклонения при тести- 
ровании распределения тестовых баллов от симме- 
тричного распределения, характерного для нор- 
мальной кривой. Асимметрия положительна, если 
большая часть тестируемых получает высокие оцен- 
ки и отрицательна, если результаты тестирования 
противоположны. Положительная асимметрия ха- 
рактерна для облегченных тестов, отрицательная - 
для излишне трудных, а в хорошо сбалансирован- 
ных по трудности тестах распределение баллов име- 
ет вид нормальной кривой, для которой асимметрия 
равна нулю. На всех экзаменах мы наблюдаем отри- 
цательную асимметрию (-0,23; -0,16; -0,09), которая 
постепенно уменьшается. Таким образом, наблюда- 
ется движение реального распределения тестовых 
баллов к теоретическому (нормальному) распреде- 
лению, причем, происходит это не за счет снижения 
трудности заданий, а за счет их корректировки на 
соответствие тестологическим требованиям. 

Эксцесс характеризует форму кривой распреде- 
ления тестовых баллов, которая может быть остро- 
вершинной (положительный эксцесс), средневер- 
шинной (нулевой эксцесс), характерной для нор- 
мальной кривой, и плосковершинной (отрицатель- 
ный эксцесс). Из табл. 2 видно, что в нашем случае 
эксцесс имеет небольшое отрицательное значение, 
что свидетельствует о недостаточном числе студен- 
тов, получивших на экзаменах баллы, близкие к 
среднему значению. 

Общая оценка статистических характеристик 
тестов такова: они приближаются к показателям 
нормального распределения результатов тестиро- 
вания. Следовательно, появляется возможность 
шкалирования результатов тестирования, т. е. ис- 
пользования разрабатываемых тестов в качестве 
инструмента измерения знаний. Но если тест ис- 
пользуется как инструмент измерения знаний, то 
он должен соответствовать определенным требова- 
ниям надежности и валидности. 

Надежностью называется такая характеристика 
теста, которая показывает, насколько точны его из- 
мерения и насколько устойчивы результаты измере- 
ния к действию случайных факторов. Следователь- 
но, тест надежен, если он обеспечивает высокую 
точность измерений и если результаты измерений 
устойчивы к действию внешних факторов (места и 
времени тестирования, состава тестируемых и т. д.). 

Любое измерение содержит ошибки [4]: прома- 
хи, систематические ошибки и случайные ошибки. 
Промахи возникают при грубых нарушениях про- 
цедуры тестирования, но при наличии качествен- 


ной инструкции и опыта проведения экзаменов 
они невозможны. Систематические ошибки возни- 
кают постоянно, поэтому они проявляют себя и 
могут быть устранены. В нашем случае такой 
ошибкой были неверные эталоны ответов в неко- 
торых заданиях, которые легко были выявлены и 
исправлены. Случайные ошибки непредсказуемы и 
от них зависит точность измерений и надежность 
теста как инструмента измерения. 

Теория надежности является важнейшей частью 
классической теории тестов. На практике исполь- 
зуются три основных метода оценки надежности 
тестов: 1) повторное тестирование, 2) распределе- 
ние группы, 3) расщепление теста. 

По первому методу сравниваются результаты 
двух тестирований с помощью одного и того же те- 
ста с интервалом 2-3 недели одних и тех же испы- 
туемых, когда они не успели забыть материал теста 
и не усваивали новые знания. На практике этот ме- 
тод применяется редко, т. к. уровень знаний тести- 
руемых в промежутке между тестированиями ко- 
нечно же меняется. По второму методу все тестиру- 
емые разделяются на две группы, которые работа- 
ют с одним и тем же тестом; результаты групп срав- 
ниваются: если результаты одинаковы или близки, 
то тест надежен. 

Мы использовали третий метод, по которому 
сравниваются результаты выполнения двух частей 
теста. Разделений теста на две части может быть 
множество. При всех возможных разделениях теста 
коэффициент надежности вычисляется по формуле 
Кьюдера- Ричардсона [5]. Нижним допустимым зна- 
чением коэффициента надежности, вычисленным 
по этой формуле, является значение 0,7. При более 
низком значении использование теста нецелесооб- 
разно из-за большой погрешности измерения. 

Надёжность наших тестов, вследствие коррек- 
тировки заданий на соответствие тестологическим 
требованиям, постепенно возрастает от значения 
0 , 7 1 в первой сессии до 0 , 7 5 и 0 , 76 в двух последних 
экзаменационных сессиях. Достигнутая надёж- 
ность приемлема в практике тестирования, но она 
может быть более высокой. В этой связи необходи- 
мо знать все факторы, от которых зависит надеж- 
ность тестов [6]. 

Длина теста. Надежность теста возрастает с 
увеличением его длины (числа заданий в нём), но 
увеличение длины предполагает не увеличение со- 
держания, а детализацию проверки каждого эл- 
емента содержания дисциплины. Если установлена 
надежность при одной длине теста, то можно вы- 
числить, насколько следует увеличить длину теста, 
чтобы повысить надежность до определенного зна- 
чения. В нашем случае коэффициентом надежно- 
сти 0,76 обладают тесты с числом заданий 24. Для 
повышения надежности до 0,80 длину теста следу- 
ет довести до 30. Эта возможность не исключена, 
т. к. с одной стороны, числом заданий 24 проверя- 
ется лишь часть элементов содержания химии и, с 
другой стороны, три часа работы над действующи- 
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ми тестами - это большое время: большинство сту- 
дентов выполняют тест за 2 часа. 

Непонятность и двусмысленность заданий. Отве- 
ты на такие задания даются случайным образом, 
поэтому надежность измерения снижается. Соста- 
вители заданий и эксперты должны изучать зада- 
ния, поставив себя на место студентов, и исключать 
из тестов непонятные и двусмысленные задания. 

Случайное угадывание правильных ответов. Воз- 
можность угадывания правильного ответа является 
самым распространенным поводом для критики те- 
стов. Но эта проблема относится только к закрытым 
заданиям, при этом вероятность угадывания верного 
ответа уменьшается с увеличением числа дистракто- 
ров (отвлекающих ответов). При выборе ответа из 
двух альтернатив вероятность угадывания 50 %, при 
трех ответах - 33 %, при четырех - 25 % и т. д. Поэ- 
тому, чтобы уменьшить вероятность угадывания, со- 
ставители закрытых заданий увеличивают число ди- 
стракторов. Но при этом нередко теряется чувство 
меры, и появляются некорректные дистракторы. В 
тестологии существуют формулы, по которым мож- 
но скорректировать оценку экзаменуемого, сделав 
поправку на вероятность случайного угадывания от- 
ветов. Но поправка снижает первичную оценку, что 
может быть причиной апелляции со стороны тех, кто 
не использует прием угадывания. Кардинальное ре- 
шение проблемы угадывания, по которому мы идём, 
- уменьшение числа заданий закрытой формы. 

Субъективное оценивание. Оно возможно при 
проверке результатов выполнения теста людьми, 
но исключается при компьютерном тестировании, 
при введении ответов студентов в компьютер неза- 
висимыми наблюдателями, а также шифрованием 
экзаменационных работ. Последние два метода 
применяются в нашей технологии проведения эк- 
замена. 

Ошибка в подсчетах. В нашей работе она исклю- 
чается использованием компьютера и специальной 
программы обработки результатов тестирования. 

Качество инструкций. Инструкция должна быть 
понятной для всех экзаменуемых. Правила предста- 
вления результатов выполнения заданий, оговорен- 
ные в инструкции, должны быть максимально про- 
стыми. В инструкции для того, кто проводит экзамен, 
должны быть четко определены правила его «поведе- 
ния»; он не должен что-то подсказывать студентам 
или отвлекать их внимание. Присутствие лектора и 
преподавателей на экзамене нежелательно. 

Состояние экзаменуемых и условия проведения 
экзамена могут повлиять на надежность результа- 
тов тестирования. Поэтому экзамен нежелательно 
проводить сразу после праздника или выходного 
дня. Необходимо проверить состояние аудитории 
(температура, освещенность, шумность, запахи и 
т. д.) и нейтрализовать факторы, снижающие на- 
дежность тестирования. 


Ещё одной важной характеристикой тестов яв- 
ляется их валидность. 

Валидностью называется характеристика спо- 
собности теста служить поставленной цели измере- 
ния. Существует несколько видов валидности: со- 
держательная, диагностическая, прогностическая и 
т. д. При итоговом контроле знаний с использова- 
нием критериально-ориентированных тестов на 
первое место выступает содержательная валид- 
ность. Если тест позволяет проверить все то, что за- 
думано авторами, то он является валидным относи- 
тельно контролируемого содержания дисциплины. 

В некоторых работах, например в [7], рассма- 
тривают валидность каждого тестового задания, 
оценивая его величиной точечно-бисериального 
коэффициента корреляции между результатами от- 
вета тестируемых на данное задание и их суммар- 
ным и индивидуальными баллами. Конечно, каж- 
дый исследователь имеет право на свою точку зре- 
ния, но общепринято считать, что содержательная 
валидность является характеристикой теста, а не 
тестового задания. 

Содержательная валидность определяется экс- 
пертным методом. Преподаватели химии считают, 
что действующими тестами проверяются не все 
знания и умения студентов, что содержательная ва- 
лидность экзаменационных тестов должна быть 
более высокой. Поэтому актуальна работа по со- 
ставлению новых заданий, соответствующих тем 
элементам содержания, на которые нет или недо- 
статочно имеющихся тестовых заданий. Кроме то- 
го, необходим расчёт и анализ характеристик те- 
стовых заданий с целью выявления и замены тех, 
которые выходят за рамки разумных требований по 
трудности и дискриминативности. 

Выводы 

Е Математическая обработка результатов экзаме- 
национных сессий по химии, проведенных по 
тестовой технологии, показала постепенное 
улучшение характеристик используемых тестов. 

2. Частотное распределение результатов двух по- 
следних экзаменов приближается к теоретиче- 
скому (нормальному) распределению статисти- 
ческих данных, поэтому появляется возмож- 
ность использования тестов в качестве инстру- 
мента измерения знаний. 

3. Надежность тестов (76 %) находится в допусти- 
мом интервале значений, но может быть повы- 
шена при дальнейшей целенаправленной рабо- 
те над тестовыми заданиями. 

4. Необходимы расчёт и анализ характеристик ис- 
пользуемых тестовых заданий, а также соста- 
вление новых заданий, направленных на увели- 
чение содержательной валидности используе- 
мых тестов. 
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